1
Giới thiệu về Mô hình Hóa Sinh: Vượt xa sự Phân biệt
EvoClass-AI003Bài giảng 8
00:00

Giới thiệu về Mô hình Hóa Sinh: Vượt xa sự Phân biệt

Chúng ta đang chuyển từ mô hình hóa phân biệt, giải quyết các bài toán phân loại và hồi quy bằng cách học xác suất có điều kiện $P(y|x)$, sang lĩnh vực tinh vi hơn của mô hình hóa sinh ra. Mục tiêu cốt lõi của chúng ta hiện giờ chuyển sang ước lượng mật độ: học ước lượng phân bố dữ liệu nền tảng đầy đủ $P(x)$ một cách trực tiếp. Sự thay đổi căn bản này cho phép chúng ta nắm bắt các mối quan hệ phức tạp và cấu trúc tinh vi bên trong các tập dữ liệu nhiều chiều, vượt qua việc phân tách biên giới đơn thuần để đạt được hiểu biết thực sự và tổng hợp dữ liệu.

1. Mục tiêu của mô hình hóa sinh ra: Mô hình hóa $P(x)$

Mục tiêu của một mô hình hóa sinh ra là ước lượng phân bố xác suất $P(x)$ mà dữ liệu huấn luyện $X$ xuất phát từ đó. Một mô hình hóa sinh ra thành công có thể thực hiện ba nhiệm vụ then chốt: (1) Ước lượng mật độ (gán điểm xác suất cho một đầu vào $x$), (2) Lấy mẫu (tạo ra các điểm dữ liệu hoàn toàn mới $x_{new} \sim P(x)$), và (3) Học đặc trưng không giám sát (phát hiện các biểu diễn có ý nghĩa, tách biệt trong không gian tiềm ẩn).

2. Phân loại: Xác suất rõ ràng vs. Ẩn dụ

Các mô hình hóa sinh ra được phân loại cơ bản dựa trên cách tiếp cận hàm khả năng. Mô hình mật độ rõ ràng, ví dụ như Mã hóa tự biến thiên (VAEs) và Mô hình Dòng, định nghĩa một hàm khả năng toán học và cố gắng tối đa hóa nó (hoặc cận dưới của nó). Mô hình mật độ ẩn dụ, nổi tiếng nhất là Mạng đối kháng sinh ra (GANs), bỏ qua hoàn toàn việc tính toán khả năng, thay vào đó học một hàm ánh xạ để lấy mẫu từ phân bố $P(x)$ bằng khung huấn luyện đối kháng.

Câu hỏi 1
Trong mô hình hóa sinh ra, phân bố chính cần quan tâm là gì?
$P(x)$
$P(y|x)$
$P(x|y)$
$P(y)$
Câu hỏi 2
Loại mô hình hóa sinh ra nào dựa vào huấn luyện đối kháng và tránh việc định nghĩa hàm khả năng rõ ràng?
Mã hóa tự biến thiên (VAE)
Mô hình tự hồi quy
Mạng đối kháng sinh ra (GAN)
Mô hình hỗn hợp Gaussian (GMM)
Thử thách: Phát hiện bất thường
Sử dụng ước lượng mật độ
Một tổ chức tài chính đã huấn luyện một mô hình hóa sinh ra mật độ rõ ràng $G$ trên hàng triệu hồ sơ giao dịch hợp pháp. Một giao dịch mới $x_{new}$ vừa đến.

Mục tiêu: Xác định liệu $x_{new}$ có phải là bất thường (lừa đảo) hay không.
Bước 1
Dựa trên ước lượng mật độ của $P(x)$, đại lượng thống kê nào phải được đánh giá đối với $x_{new}$ để nhận diện nó là bất thường?
Lời giải:
Mô hình phải đánh giá xác suất (hoặc khả năng) $P(x_{new})$. Nếu $P(x_{new})$ thấp hơn ngưỡng trước đó $\tau$, có nghĩa là điểm mới này rất ít khả năng xảy ra theo phân bố đã học của các giao dịch bình thường, thì nó sẽ bị đánh dấu là bất thường.